智能论文笔记

Bilateral Deep Reinforcement Learning Approach for Better-than-human Car Following Model

Tianyu Shi , Yifei Ai , Omar ElSamadisy , Baher Abdulhai

分类：机器人 | 机器学习

2022-03-03

在未来几年和几十年中，自动驾驶汽车（AV）将变得越来越普遍，为更安全，更方便的旅行提供了新的机会，并可能利用自动化和连接性的更智能的交通控制方法。跟随汽车是自动驾驶中的主要功能。近年来，基于强化学习的汽车已受到关注，目的是学习和达到与人类相当的绩效水平。但是，大多数现有的RL方法将汽车模拟为单方面问题，仅感知前方的车辆。然而，最近的文献，王和霍恩[16]表明，遵循的双边汽车考虑了前方的车辆，而后面的车辆表现出更好的系统稳定性。在本文中，我们假设可以使用RL学习这款双边汽车，同时学习其他目标，例如效率最大化，混蛋最小化和安全奖励，从而导致学识渊博的模型超过了人类驾驶。我们通过将双边信息集成到基于双边控制模型（BCM）的CAR遵循控制的状态和奖励功能的情况下，提出并引入了遵循控制遵循的汽车的深钢筋学习（DRL）框架。此外，我们使用分散的多代理增强学习框架来为每个代理生成相应的控制动作。我们的仿真结果表明，我们学到的政策比（a）汽车间的前进方向，（b）平均速度，（c）混蛋，（d）碰撞时间（TTC）和（e）的速度更好。字符串稳定性。

translated by 谷歌翻译

本文解决了逆增强学习（IRL）的问题 - 从观察其行为中推断出代理的奖励功能。 IRL可以为学徒学习提供可概括和紧凑的代表，并能够准确推断人的偏好以帮助他们。％并提供更准确的预测。但是，有效的IRL具有挑战性，因为许多奖励功能可以与观察到的行为兼容。我们专注于如何利用先前的强化学习（RL）经验，以使学习这些偏好更快，更高效。我们提出了IRL算法基础（通过样本中的连续功能意图推断行为获取行为），该算法利用多任务RL预培训和后继功能，使代理商可以为跨越可能的目标建立强大的基础，从而跨越可能的目标。给定的域。当仅接触一些专家演示以优化新颖目标时，代理商会使用其基础快速有效地推断奖励功能。我们的实验表明，我们的方法非常有效地推断和优化显示出奖励功能，从而准确地从少于100个轨迹中推断出奖励功能。

translated by 谷歌翻译